Preparatoria

Descripción y representación de datos de forma tabular y gráfica

Organización de los datos

Existen muchas formas de organizar los datos. Para poder decidir cuál es la mejor debes tener muy claro para qué quieres la información. Recuerda a Bachelard:

Lo importante no es medir para pensar, sino pensar para medir

¿Para qué te sirve tener organizada la información?

Imagínate que tu profesor te pide que hagas una presentación de tres minutos frente a tu grupo sobre tu comunidad. ¿Crees que puedes hablar de todo lo que hay en tu comunidad? Si no, ¿de qué hablarías? ¿Hablarías de su tamaño, de sus habitantes, de su vegetación y clima, de sus actividades productivas, de lo que haces como miembro de tu comunidad o hablarías de tu escuela, de lo que más te gusta, de lo que te gusta menos? Toda esta información sobre tu comunidad es valiosa, pero ¿a qué características les darías prioridad al hablar? ¿Por qué? ¿Cómo la organizarías?

Supón que decides trabajar sobre las edades de los habitantes de tu comunidad y que su población es de 2,500 personas. Como no tienes el tiempo de ir a preguntarle su edad a cada uno de ellos, decides salir a la calle y entrevistar a las primeras 50 personas que te encuentras en el camino. Los datos que encontraste son los siguientes:

Tabla 1.

Formas de organización de datos

Tomemos los datos de edades de la sección anterior. ¿Cómo ordenarías la información? No existe una forma única de ordenar los datos. Puede ser de menor a mayor, de mayor a menor, por decenas, entre otras. ¿Cuál es la mejor? La que te convenga, de acuerdo con el propósito de tu investigación.

Tipos de frecuencia: absoluta, relativa, acumulada y relativa acumulada

Si te fijas únicamente en los resultados para las edades de 24, 26, 27 y 28 años observarás lo siguiente:

Tabla 2.

A este cuadro se le llama cuadro de conteo.

El cuadro de conteo te permite resumir la nube de datos. Ahora que sabes esto, elabora el cuadro de conteo de todos los datos de edades de las personas que entrevistaste.

Tabla 3.

El cuadro de conteo te permite obtener información para organizar y facilitar el conteo de los datos. Al total de observaciones de cada renglón (edad en nuestro ejemplo) de tu cuadro de conteo se le llama frecuencia absoluta y se denota como fa. En tu cuadro puedes observar, por ejemplo, que la frecuencia absoluta para la edad de 26 es de dos, mientras que para la de 27 es sólo de uno. Como puedes observar, la columna de total del cuadro de conteo se llama fat (frecuencia acumulada total).

La frecuencia absoluta acumulada se obtiene de sumar la frecuencia absoluta de los datos anteriores con la faa del dato actual.

Con el análisis de las distribuciones de frecuencias se puede determinar la tendencia de la variable de estudio. Recordemos que la variable de estudio puede ser nominal, ordinal, discreta o continua, y que esta característica incidirá las construcciones de tablas estadísticas.

  • Llamaremos Frecuencia Absoluta al número de veces que se repite un mismo dato o valor de una variable. Se simboliza con fa.
  • La Frecuencia relativa es la proporción de elementos que pertenecen a una categoría o valor de una variable y se obtiene dividiendo su frecuencia absoluta entre el número total de elementos y se representa con el símbolo fr. Se puede expresar en fracción, con valores decimales o en porcentajes.
  • La frecuencia acumulada de un valor de una variable, es la que se obtiene sumando la frecuencia absoluta correspondiente a este valor, con las frecuencias absolutas de todos los valores anteriores a él. Se simboliza con fac.
  • Se Denomina frecuencia relativa acumulada a un valor de una variable, a la que se obtiene sumando la frecuencia relativa correspondiente a este valor, con las frecuencias relativas de todos los valores anteriores a él. Se simboliza con frac. Se puede expresar en fracción, en forma decimal o en porcentaje.

Análisis de datos a través de tablas

Seguramente te habrás dado cuenta de que para resolver el primer caso tuviste que sumar las frecuencias de la población de entre 2 y 16 años (los menores de 17 años). Para el segundo caso, las frecuencias de los que tienen 18 años o más. Sabiéndolo o no, en ambos casos utilizaste un nuevo concepto: el de frecuencia absoluta acumulada (faa).

Partes de una tabla

En todo estudio o investigación estadística se requiere medir las características en los individuos, objetos o cosas de interés; de esta manera se obtiene una colección de valores de la variable correspondiente; es decir se genera un conjunto de datos; ya sea una población estadística o una muestra estadística.

Es indispensable y útil disponer con métodos de organización y presentación de los datos recopilados que permitan conocer cómo se reparten éstos, entre los posibles valores que puede tomar la variable de interés. Las representaciones tabulares y gráficas, brindan la oportunidad de procesar la información recopilada, aún más, se pueden convertir en instrumentos útiles, puesto que pueden expresar o transmitir, de manera rápida y sencilla, las tendencias o regularidades que manifiesten los datos.

Las tablas estadísticas permiten resumir la información, en la primera columna aparece la variable de estudio y los valores que pueda tomar, en la o las siguientes columnas aparecen las frecuencias absolutas u otras que el estudio requiera.

A la tabla que contiene la información de las frecuencias: absolutas, absolutas acumuladas, relativas y relativas acumuladas se conoce como tabla de distribución de frecuencias. Ahora bien, una misma información puede ser representada de
diferentes maneras. Como hemos visto, una de ellas es a través de tablas.

Componentes de una tabla estadística

  • Título: Incluye el objetivo del estudio, también describe la información más importante del estudio como lo es: La variable, la muestra o población y a quién corresponde la muestra.
  • Encabezados: Describen el tipo de información que se refiere en cada columna, puede incluir descripciones tales como las unidades de medida empleadas, el tipo de datos y su alineación, vertical u horizontal.
  • Cuerpo de la tabla: Agrupa el contenido de la información. Constituye el mensaje de la tabla. Es el espacio que contiene los valores de variable, ya sea categóricos o numéricos, los cuales deberán ser siempre excluyentes, también contiene las frecuencias asociadas a cada uno de éstos valores.
  • Final: En el final se registran los totales.
  • Notas de pie: explican detalles del contenido de la tabla. Por ejemplo se especifica: cómo, quién, en dónde y cuándo se recopilaron los datos

Observa las siguientes tablas:

Tipo de sangreNúmero de alumnos
O Rh+22
O Rh −3
A Rh +12
B Rh +8
AB Rh +2
Ns3
Total50

Ns: No sabe
Fuente: Resultados de una encuesta contenida en un proyecto escolar 2008

Distribución del uso del agua en nuestro país.

Uso del aguaPorcentaje
Abastecimiento público14%
Actividades agrícolas77%
Suministro a Termoeléctricas5%
Industria4%
Total100%

Fuente: CONAGUA Estadísticas del agua en México, edición 2007

Como puedes observar, en ambas tablas se proporcionan sus componentes. En la primera de ellas, el número de alumnos representa a la frecuencia absoluta de cada valor de variable (tipo de sangre). En la segunda tabla, el porcentaje de agua destinado a cada tipo de uso representa a la frecuencia relativa.

Análisis de datos a través de gráficas

Dos gráficos muy utilizados en Estadística son:

1. Histograma de frecuencia de clases

Un histograma es una representación gráfica de una distribución de frecuencias, utilizando barras para exhibir las frecuencias o frecuencias relativas de ocurrencia de cada valor o grupo de valores en un conjunto de datos.

Un histograma es utilizado para:

  1. Resumir un conjunto de datos para una sencilla comprensión visual de sus características generales, tales como valores típicos, extensión o variación y forma.
  2. Sugerir modelos de probabilidad o transformaciones para subsecuentes análisis.
  3. Detectar un comportamiento inesperado o valores inusuales en los datos.

Un histograma es una útil herramienta de diagnóstico para detectar valores periféricos, formas atípicas en el histograma a menudo proveen importantes pistas hacia la naturaleza del sistema o proceso que genera los datos. Los datos están agrupados en intervalos de la misma anchura, son mutuamente exclusivos, e incluyen todos los posibles datos. Para construir un histograma, se dibujará básicamente un diagrama de barras, sin espacios entre éstas, colocando en el eje horizontal las marcas de clase o los límites de cada intervalo en los extremos de las barras y en el eje vertical, una escala en la que se localizan las frecuencias correspondientes de cada intervalo de clase. Las barras se dibujan centradas en la marca de clase y con una altura igual a la frecuencia del intervalo.

El histograma utiliza barras contiguas en dónde la altura de cada barra corresponde a las frecuencias de clase. Sin embargo, existe una enorme diferencia entre ambas. Mientras que en la primera el ancho de cada barra no importa (sólo importa el concepto, que nos informa que se trata de los años 1988, 1999 y 2006); en el caso de un histograma, sí es muy relevante.

En el caso del histograma importan tanto el largo como el ancho de las barras o, en otras palabras, el área de cada una de las barras. Ejemplo de un histograma:

El histograma de frecuencias absolutas puede ser cualquiera de los dos siguientes:

2. Polígono de frecuencias

Es un gráfico de líneas en el cual el eje horizontal representa los datos a través de sus marcas de clase, y el eje vertical las frecuencias de cada uno de los intervalos. Para trazarlo, primero se localizan los puntos correspondientes a cada intervalo, la primera coordenada corresponde a la marca de clase y la segunda la frecuencia correspondiente. Para poder cerrar la figura, se habrá de considerar un intervalo imaginario con frecuencia cero en cada uno de los extremos de la gráfica, una vez delimitados todos los puntos, se unen de forma consecutiva con segmentos de línea recta. El polígono de frecuencias permite recuperar la idea de continuidad de la variable. El polígono puede ser aproximado mediante una curva suavizada que suele llamarse curva de frecuencias.

Ejemplo: Para el histograma anterior, el polígono de frecuencias puede ser construido de cualquiera de las siguientes dos formas. Cuando se recurre o no, al histograma:

Los histogramas son frecuentemente utilizados como una herramienta exploratoria anterior al análisis estadístico y modelación. La forma de un histograma puede sugerir algún tipo de comportamiento, por ejemplo: la simetría, esto también conlleva a aproximar la curva que suavemente lo describe, ésta se conoce como campana de Gauss o curva normal.

El polígono de frecuencias está muy ligado al histograma, pues se construye trazando una línea poligonal formada por segmentos que unen los puntos medios de la base superior de las barras del histograma. Como verás, en tu histograma las primeras dos columnas tienen un ancho de 6 años, las dos siguientes de 3 años; la quinta columna otra vez de 6 años y la última va de 24 a 43 años, es decir tiene un ancho de 19 años. Ahora bien, si recuerdas de tus clases de matemáticas que la fórmula para calcular el área de un rectángulo es:

Área de un rectángulo = base x altura

Entonces, el área de cada una de las barras del histograma será la misma, pues cada barra es un rectángulo.

Para saber la altura de la barra basta con ir al cuadro de conteo y observar la frecuencia de personas que caen en cada clase. Sin embargo, saber el valor de lo ancho (la base) no es tan fácil.

  • Si tomo el valor del límite inferior de la clase en cuestión estoy suponiendo que todas las frecuencias de esa clase caen en el límite inferior; en nuestro ejemplo, el de la clase que va de 0 a menos de 6 años, estaría suponiendo que todos caen en 0.
  • Si, por el contrario, tomo el valor del límite superior, entonces, en nuestro ejemplo, estaría suponiendo que caen en 6.
  • Para evitar estos sesgos extremos, se toma la marca de clase, que como ya sabemos, es el promedio aritmético de los valores de los límites superior e inferior.
  • De esta manera, ya podemos calcular el área de cada clase, pues basta con multiplicar la frecuencia de una clase por la marca de clase que le corresponde.

El polígono de frecuencias se obtiene uniendo con segmentos de recta las marcas de clase de un histograma. El área comprendida dentro del polígono de frecuencias equivale a la sumatoria de las frecuencias de todas las clases, multiplicadas por sus respectivas marcas de clase. Más adelante estudiaremos las propiedades que tienen, algunas curvas, específicamente la llamada curva normal.

Fuentes: Secretaría de Educación Pública. (2015). Probabilidad y estadística I. Ciudad de México. / Colegio de Bachilleres del Estado de Sonora. (2016). Probabilidad y Estadística I. Sonora, México.